序列比对相关概念
序列比对打分方法
序列比对算法
双序列比对应用
多序列比对
AGCACACA | | ACACACTA |
AGCACAC-A | ||||| | A-CACACTA |
AGCACACA--- ||||| ---ACACACTA |
![]() |
两条长度为\(n\)的序列比对的排列组合: \( (2n)!/(n!)^2 \) 设n=300, \((2*300)!/(300!)^2 \approx 7*10^{88} \) 目前可见宇宙中所有原子的一亿倍! |
ATGACTGGA
||||||||| ATGACTGGA |
ATGA--CTGGA
|||| ||.|| ATGATGCTCGA |
|
|
|
AGCACCACCA |........| ACACGATCTA |
AGCACCACC-A | |||.|.| | A-CACGATCTA |
![]() |
汉明距离(Hamming distance): 两个 字符串对应位置的不同字符的个数。(没有gap) 编辑距离(Edit distance, ): 将一个字符 串通过插入、删除、替代等操作变为另一个字符串的最少操作次数。 针对上述序列:
|
相似性和同一性都是量的概念,一般用百分数表示; 同源性是质的判断, 要么同源要么不同源。 |
直系同源基因和旁系同源基因统称为同源基因(homolog) |
|
|
|
![]() |
PAM
|
BLOSUM
|
ATGA--CTGGA |||| ||.|| ATGATGCTCGA
|
![]() |
![]() |
![]() |
|
|
![]() |
递归思路的解决方案:
递归会带来大量的重复计算 |
递归思路的解决方案:
|
动态规划的解决方案:
|